Подгрузите следующие пакеты.
packages <- c('readr', 'dplyr', 'tidyr', 'ggplot2', 'fastDummies',
'rvest', 'stringr', 'naniar', 'tibble', 'Metrics', 'readr')
# install.packages(packages)
library(readr)
library(dplyr)
library(tidyr)
library(ggplot2)
library(rvest)
library(stringr)
library(naniar)
library(tibble)
library(Metrics)
library(fastDummies)
library(readr)Нужно спарсить одну страницу сайта ЦИАН. Запрос можно оставить как на картинке или сделать какой-то свой.
Парсим только первую страничку, поэтому не нужно писать никаких for. Выкачать нужно все цены, которые находятся на странице, привести их к числовому формату и найти среднее значение.
С того же ЦИАНа я спарсил для вас информацию о квартирах в районе Проспекта Вернадского (Юго-запад).
url <- 'https://raw.githubusercontent.com/ahmedushka7/R/master/docs/homeworks/exam/data/cian.csv'
data <- read_csv(url)В данном датасете наблюдением является квартира. Каждая квартира имеет следующие характеристики ( переменные):
price – цена квартиры в рублях;subway – удаленность до метро; до слэша: количество минут, после слэша: способ добраться до метро (walk – пешком, transport – обественный транспорт);rooms – количество комнат;metrs – количество квадратных метров;url – ссылка объявления на сайте ЦИАН;type – тип квартиры (first – новостройка, second – вторичка)Задания:
%>%).
urlsubway на две отдельные переменные.У вас есть два набора данных train и test. Вам нужно попробовать построить наилучшую модель для прогнозирования цены квартиры (price). Метрикой качества будет MAPE. Помните, что эта метрика качества несимметрична.
url_train <- 'https://raw.githubusercontent.com/ahmedushka7/R/master/docs/homeworks/exam/data/train.csv'
url_test <- 'https://raw.githubusercontent.com/ahmedushka7/R/master/docs/homeworks/exam/data/test.csv'
train <- read_csv(url_train)
test <- read_csv(url_test)Если в качестве признака вы взяли площадь квартиры (квадратные метры), то проинтепретируйте коэффициент перед ним. А также нарисуйте график зависимости таргета от площади квартиры.